HS 2025
LV-Leitung: Dr. Sandra Grinschgl / MSc. Aaron Friedli
Tutor: BSc. Lars Schilling
11. Einheit, 24.11.2025
ggplot2()Sehr flexibles Paket.
Alle plots beginnen mit ggplot() und dem verwendeten Datensatz
Mit aes() definieren wir die elemantaren Elemente der Plots - Variablen die geplottet werden sollen
mit + können wir geoms, layers und weitere Elemente hinzufügen.
ggplot2() - Cheatsheet
ggplot()Variablen als Aesthetic Mappings definieren
Mapping ist immer das zweite Argument (nach dem Datensatz), “call” kann also auch verkürzt werden.
ggplot() - Geomsgeom_bar()geom_histogram()geom_point(), geom_line()geom_count()geom_boxplot(), geom_violin()ggplot() - Geomsggplot() - Layersggplot() - Layerslabs), Regressionslinien, vereinfachtes Designmit theme_ können verschiedene Formatierungen gewählt werden. theme_classic wird typischerweise für APA7 passende Formatierungen gewählt.
ggplot() - Verschiedene Layers/Geoms kombiniertViel, viel mehr Möglichkeiten als wir hier besprechen, siehe z.B.:
R for Data Science – Kapitel 9 & 10:
Kapitel „Layers“
Weitere Textelemente in Abbildungen (Kapitel 11)
Hier findet man auch weitere Visualisierungsmöglichkeiten & Informationen dazu, wie man verschiedene Plots neben/untereinander abbilden kann.
Entscheidungsbaum statistischer Testverfahren
Pearson's product-moment correlation
data: penguins$bill_length_mm and penguins$body_mass_g
t = 13.654, df = 340, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.5220040 0.6595358
sample estimates:
cor
0.5951098
Pearson's product-moment correlation
data: penguins$bill_length_mm and penguins$body_mass_g
t = 13.654, df = 340, p-value < 0.00000000000000022
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.5220040 0.6595358
sample estimates:
cor
0.5951098
Argumente
Call:
lm(formula = mean_rl_all ~ cvstm_propcorrect, data = dat_full)
Residuals:
Min 1Q Median 3Q Max
-2.1982 -0.6544 -0.1708 0.7555 3.5717
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 7.6277 0.8257 9.238 < 0.0000000000000002 ***
cvstm_propcorrect -3.2993 1.1202 -2.945 0.00372 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.097 on 157 degrees of freedom
Multiple R-squared: 0.05236, Adjusted R-squared: 0.04632
F-statistic: 8.674 on 1 and 157 DF, p-value: 0.003719
| Funktion | Beschreibung |
|---|---|
lm(y ~ x) |
Einfache lineare Regression mit einer abhängigen Variablen y und einem Prädiktor x. |
lm(y ~ x1 + x2) |
Multiple Regression mit einer abhängigen Variablen y und zwei Prädiktoren x1 und x2. |
summary() |
Gibt die Ergebnisse der Regressionsanalyse für ein Regressionsmodell aus. |
confint() |
Konfidenzintervalle für die Regressionskoeffizienten. |
| Funktion | Beschreibung |
|---|---|
fitted() |
Vorhergesagte Werte des Regressionsmodells. |
resid() |
Residuen des Regressionsmodells. |
predict() |
Vorhergesagte Werte für bestimmte Werte der Prädiktorvariablen. |
anova() |
Vergleicht die Determinationskoeffizienten zweier Regressionsmodelle mit einem F-Test. |
vif() * |
Variance Inflation Factors (VIF) für jeden Prädiktor; aus dem car-Paket. |
* aus zusätzlichen Paketen
Man legt zwei oder mehr Regressionsmodelle an mit zunehmenden Prädiktoren
Dann vergleicht man diese Modelle mit anova(model1, model2). Gibt es einen signifikanten Zuwachs an aufgeklärter Varianz (siehe Determinationskoeffizient) von model1 zu model2?
Siehe hier: Lineare Regression mit R (einfach, multiple, hierarchisch)
Basics der Datenvisualisierungen kennengelernt
Erstellung von Tabellen
ggplot()
Korrelationen und Regressionen in R kennengelernt
Reminder: R Übung bis Freitag 28.11, Peer Feedback über Forum bis 03.12.
Pearson's product-moment correlation
data: penguins$bill_length_mm and penguins$body_mass_g
t = 13.654, df = 340, p-value < 0.00000000000000022
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.5220040 0.6595358
sample estimates:
cor
0.5951098
Call:
lm(formula = bill_length_mm ~ body_mass_g, data = penguins)
Residuals:
Min 1Q Median 3Q Max
-10.1251 -3.0434 -0.8089 2.0711 16.1109
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 26.8988724 1.2691478 21.19 <0.0000000000000002 ***
body_mass_g 0.0040514 0.0002967 13.65 <0.0000000000000002 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 4.394 on 340 degrees of freedom
(2 observations deleted due to missingness)
Multiple R-squared: 0.3542, Adjusted R-squared: 0.3523
F-statistic: 186.4 on 1 and 340 DF, p-value: < 0.00000000000000022
[1] 0.3541557